Papers Vulnerabilities 软件安全 Vulnerabilities

CPVD Cross Project Vulnerability Detection Based on Graph Attention Network and Domain Adaptation

foresta.yang2023-12-182024-04-24

0 Abstract

代码漏洞检测对于软件安全预防至关重要。大规模软件代码中的漏洞注释非常繁琐且具有挑战性，这需要领域专家花费大量时间进行注释。这项工作提供了CPVD，这是一种跨域漏洞检测方法**，基于“学习使用一个具有丰富漏洞标签的项目快速预测另一个项目的漏洞标签”的挑战CPVD使用代码属性图来表示代码，并使用图注意力网络和卷积池网络来提取图特征向量。**在跨域漏洞检测的域自适应表示学习阶段，它减少了源域和目标域数据之间的分布。在本文中，我们在不同的真实世界项目代码上相互测试。与没有域自适应的方法和基于自然语言处理的域自适应方法相比，CPVD更通用，在跨域漏洞检测任务中表现更好。具体而言，对于chr_deb、qemu、libav和sard这四个数据集，它们的F1得分分别为70.2%、81.1%、59.7%和78.1%，AUC分别为88.4%、86.3%、85.2%和88.6%。

代码属性图，跨域漏洞检测，域自适应表示学习，图注意力网络。

1 Intro or Overview

1.1 Problem and Challenge

在代码漏洞检测任务中，VulDeePecker、μVulDeePecker、SySeVR、Vuldeeplocator、Devign、BGNN4VD、Reveal和Ivdetect已经表明，使用神经网络进行自动特征提取比专家制作的特征具有更好的性能。VulDeePecker、μVulDeePecker、SySeVR和Vuldeeplocator将代码函数处理为标记序列，标记序列被处理为自然语言文本。然而，Devgin、BGNN4VD、Reveal和Ivdetect体现了通过图神经网络（以下简称GNN）提取代码函数的图结构特征。这些方法已被证明优于特征提取方法，如递归神经网络、Bi-LSTM和GRU。

然而，前面的技术都导致了漏洞识别问题中的另一个重要问题：项目中缺乏易感代码标签。数据集及其标签用于推动当前的深度学习模型。深度学习模型的预测性能由数据集的数量和质量以及它们的标记决定。由于漏洞标签的稀缺性，历史漏洞不足以训练和验证神经网络模型，尤其是对处于休眠状态的开源项目。

Vulnerability detection in large-scale software code is timeconsuming, complicated, and error-prone;

尽管源域和目标属于不同项目的漏洞代码集，但它们在相同的特征提取器后具有相似的特征空间和标签分布。尽管如此，它们的概率联合分布在跨域漏洞检测问题上更进一步。源域和目标域数据集用于漏洞分类任务，因此最终的分类目标是相同的。基于上述前提条件，可以在跨域漏洞识别中使用域自适应方法。

1.2 Motivation

1.3 Contribution

总之，本文的贡献如下：本文提出了一种将图注意力网络和域自适应表示学习相结合的跨域漏洞检测方法CPVD。这是图神经网络与领域自适应相结合进行跨领域漏洞检测的开端。基于这一想法，研究人员可以提出不同的方法来提高漏洞检测性能。本文验证了域自适应方法更适合于未标记的漏洞检测任务。本文验证了在跨域漏洞检测任务中，代码的图形表示优于令牌序列处理。本文验证了只有对源域进行重新采样才能提高漏洞检测性能。

2 Architecture & Method

2.1 System Overview

问题定义

跨域漏洞代码检测是一个二进制分类问题，旨在将目标域代码分为易受攻击和不易受攻击。跨域漏洞代码检测有两种域分布，即源域代码分布S（C，y）和目标域代码分布T（C，？），其中C是代码函数；y表示漏洞分类标签，y∈{0,1}，0表示没有漏洞，1表示有漏洞，“？”表示未知标签。此外，这两个域分布都有域标签，d∈{S，T}，如果d=S，则xG～S（xG）；else xG～T（xG），其中xG是样本的图特征向量。跨域漏洞检测的目标是训练一个神经网络Nf（C），以不断减少源域漏洞分类损失和域分类损失，最终实现对目标域中的代码漏洞进行准确分类的目标。上述损失可以正式定义为

其中，L是源域漏洞分类损失，y是漏洞分类标签，Ld是域分类损失，d是域标签。

代码预处理

每个节点都包含一个键、代码语句和属性元素（例如Identifier、AssignmentExpression、ParameterType、ExpressionStatement），边表示节点之间的关系，边类型是对它们关系的描述，类型为IS_AST_PARENT、FLOWS_TO、DEF、USE、CONTROLS等。注意，每个函数都有不同的CPG，因为它们的语义和句法结构不同，所以函数的代码属性图不一定包含所有的边类型。改论文中使用了10种类型的边。

节点和边的类型分别用one-hot表示，语句用词嵌入技术进行表示。

图特征提取

图特征提取阶段的输入是标记的源域节点向量和未标记的目标域节点向量；对于标记的源域图，在预训练后输出图的特征向量，而对于未标记的目标域图，使用在源域中训练的模型来提取目标域图的向量特征。

代码预处理阶段输出的节点特征向量是独立于其他节点获得的，因此节点信息较差。代码属性图是根据代码之间的句法和语义结构构建的，每个节点都有一个语句片段，相邻节点之间存在很大的相关性和依赖性。为了最佳地表示节点特征，有必要将其相邻节点的信息映射到自身。因此使用具有双头注意力机制的图注意力网络。

由于源域代码具有标签，我们可以根据漏洞分类任务进行预训练，以获得源域图特征向量和训练后的模型。目标域图特征向量可以从训练的模型中获得。预训练损失函数是一个二分类交叉熵损失函数。

领域自适应表示学习阶段

领域自适应表示学习阶段由四个部分组成：重采样和特征映射、源领域漏洞分类器和领域分类器。

Resampling and Feature Mapping

重采样方法使用SMOTETopek，它是过采样和欠采样的组合。重新采样后的源域平衡数据集和目标域不平衡数据集将进入表示学习网络。

Source Domain Vulnerability Classifier

漏洞分类器Cy（xL，yi）的输入是源域代码和源域漏洞标签的特征向量。我们使用完全连接层作为源域漏洞分类器。在每个完全连接的层之后，Relu被用作激活函数，Dropout被用于防止过拟合。为了使目标域样本接近源域样本，除了使用分类损失函数外，我们还设计了域自适应损失函数LST，以不断减少源域和目标域之间的分布差异。

Domain Classifier

在域分类器中，源域代码的标签为S，目标域代码的标记为T。因此，为了混淆源域和目标域，我们需要最大化域分类误差。域分类器Cd（xG，di）的输入是源或目标域码及其域标签，也就是说，xL∈SõT。我们使用全连接层作为域分类器，在每个全连接层之后使用Relu作为激活函数，并使用Dropout来防止过拟合。DANN[42]设计了一个梯度反转层，确保在反向传播过程中梯度方向自动反转，并在正向传播中进行身份转换。

领域自适应表示学习阶段利用领域数据分布自适应的思想，在训练过程中训练整个领域表示学习网络。因此，模型训练有两个目标：第一是减少代码漏洞分类错误，以确保源域数据的正确分类；第二是增加域分类错误，混淆两个域的代码输入。因此，这一阶段的总损失函数包括两个部分：源域漏洞分类损失和域分类损失。

3 Experiment and Evaluation

与没有域自适应的漏洞检测方法相比，CPVD在漏洞检测任务中的表现如何？

与适用于领域的漏洞检测方法相比，CPVD在漏洞检测任务中的表现如何？

本文中的图特征向量提取阶段的设计如何影响漏洞检测的性能？

对源域数据重新采样如何影响目标域中的漏洞检测性能？

与最先进的领域自适应方法相比，我们采用的领域自适应表示学习方法如何影响漏洞检测任务？

3.1 DataSet and Process

3.2 Evaluation

4 Conclusion

Summary

💡 Others

Cross-Domain Vulnerability Detection

跨域漏洞检测问题可以看作是一个训练模型并学习通过使用具有大量标签的源域代码来预测目标域代码的漏洞标签问题的问题。因为标签只有两种（漏洞或非漏洞），所以它也可以被视为二分类的问题。==跨域漏洞检测以源域和目标域的代码函数为输入。它使用距离或对抗性网络来测量源域和目标之间的相似性。==它学习目标域的漏洞预测函数F:Xt→ yt，连续训练F使其具有最小的预测误差，然后在目标域中正确地预测输入代码的漏洞分类标签。

Graph-Based Code Representation

图的节点表示表达式或代码语句，基于图的表示的边反映节点之间的关系，如控制流、控制依赖关系和数据依赖关系。

语法树（以下简称AST）是一种特殊类型的图结构。AST是代码解析器理解程序基本结构并检查语法错误的第一步。它可以用于将源代码表示为树。关于语法CD VulD[19]、code2vec[22]和Infercode[23]的结构的信息是以AST结构表达源代码的作品的示例。

控制流图（以下简称CFG）是一种有向图，它描述了程序中进程的所有可能的实时执行流。条件语句控制执行路径，CFG的节点是单个语句。Cheng等人[24]、Zhuang等人[25]和Yu等人[26]以CFG的形式表示源代码。代码属性图（以下简称CPG）[27]由AST、数据流图、CFG和程序依赖图组成。代码属性图的每个元素都提供了关于源代码整体语义结构的附加上下文。总之，代码属性图是有向的、边类型的属性多重图，至少有一个属性指示每个节点的类型。Devign[13]、BGNN4VD[14]和VulSnipper[28]是由CPG表示为源代码的作品的示例。

Word Vector Embedding

Word2vec[29]是一种将语言文本中的每个单词转换为向量的编码方法，然后可以表示单词之间的关系。skip gram模型和CBOW模型包含在Word2vec中。漏洞发现作业中最常用的单词嵌入方法是Word2vec[10]、[11]、[13]、[14]、[30]、[31]。Glove的主要想法是通过统计语料库中同时出现的单词的数量来收集有关全局单词的统计信息[32]。它是一个全局无监督对数双线性回归模型，用于描述无监督学习中的单词表示。Glove还用于表示具有代码函数[16]、[33]的单词嵌入。除了上述两个用于处理图[35]、[36]中节点中代码语句的单词嵌入之外，Doc2vec[34]还被用作程序表示的单词嵌入。研究[35]还发现，在JAVA语言漏洞检测工作中，TF-IDF[37]词向量嵌入方法的性能优于Doc2vec。

Graph Neural Networks

由于其卓越的性能和可解释性，图神经网络被广泛应用于推荐系统、知识图分类、文本分类等领域。由于表示学习和单词嵌入的成功，图嵌入和图神经网络已被应用于静态代码漏洞检测任务。图卷积神经网络、[38]门控图神经网络（以下简称GGNN[39]）和GAT是图神经网络的例子。GCN在图神经网络中加入了卷积层的概念，GGNN在图神经网中加入了门控递归单元，GAT在图神经网上加入了注意机制；GAT也是卷积图神经网络的一种。GGNN是一种广泛用于漏洞检测的图神经网络模型，用于提取图特征向量[13]，[14]，[15]，[40]。

Domain Adaptation

源域是描述领域自适应中当前先验知识的数据集，而目标域是需要算法学习新知识的数据集[41]。==域自适应的本质是源域和目标域之间的数据分布差异；==因此，数据特征分布自适应将是一个挑战。为了完成从源域到目标域的迁移操作，我们需要设计一种适当的测量方法，该方法能够自适应地估计数据分布的多样性，并不断缩小它们之间的差距。当标签明显缺失时，现在解决不同数据集之间的模型转移是一个关键概念。领域对抗性神经网络（以下简称DANN）[42]是一种领域自适应，它将对抗性机制添加到神经网络的训练中，由三部分组成：特征提取器、分类器和领域鉴别器。特征提取器，通常是神经网络模型，从源域和目标中的数据中提取特征向量；该分类器接受特征向量并将其用于下游分类任务。领域鉴别器决定输入图特征属于哪个领域。DANN有两个目标：一是减少代码分类器的分类误差，二是增加领域的分类误差。DANN被认为是在数据分布自适应的背景下进行边缘分布自适应的一种对抗性策略。